Tip
告别了第1章的核心理论,我们准备开始大模型的实战。后续的章节将反复印证理解第1章的知识是多么的重要。
阅读指南
大多数非程序员在谈到AI时通常指的是DeepSeek、豆包这些大语言模型。
渐渐地,一个错误的等式形成了:
AI = 大语言模型。
但这是错的。大模型是当前AI领域最耀眼的明星,但它只是AI这个广阔领域中的一个分支。
人工智能(Artificial Intelligence)这个词诞生于1956年的达特茅斯会议。当时,一群计算机科学家聚在一起,提出了一个大胆的设想:
"制造出能够模拟人类智能行为的机器"。
从那时起,AI就成为了一个领域:只要是让机器展现"智能"行为的技术,都可以被称为AI。
但问题来了:什么算"智能"?
AI这个概念经历了三次重要的发展浪潮:
第一次浪潮(1956-1974):符号主义AI
那个年代,研究者认为智能的本质是逻辑推理和符号操作。
典型代表包括专家系统和逻辑推理引擎。专家系统把人类专家的知识编码成规则,逻辑推理引擎用if-then规则解决问题。
例如,一个医疗诊断系统可能是这样的:
IF 患者发烧 AND 咳嗽 AND 流鼻涕
THEN 诊断为感冒,建议多喝水休息
这是AI吗,在当时,这就是AI。
但很快人们发现,真实世界太复杂了。没法用有限的规则覆盖所有情况。医生的经验,很多时候是"直觉",而不是明确的规则。
第二次浪潮(1980-2010):机器学习AI
研究者转变了思路,与其手工编写规则,不如让机器从数据中学习规律。
典型代表包括决策树、随机森林、支持向量机和贝叶斯网络。决策树和随机森林从样本数据中学习分类规则,支持向量机找到最优分类边界,贝叶斯网络基于概率推理。
例如,一个垃圾邮件分类器,不再手工写规则,而是从数据中学习:
训练数据:
"免费赠送" → 垃圾邮件 ✓
"会议安排" → 正常邮件 ✓
"中奖通知" → 垃圾邮件 ✓
...10000封邮件机器学习模型自动总结规律:
包含"免费"、"中奖"、"点击链接" → 垃圾概率90%
包含"会议"、"项目"、"附件" → 正常概率85%
这个阶段的AI已经能做很多实用的事,包括信用卡欺诈检测、亚马逊的商品推荐系统、基于特征工程的人脸识别。
这些,也是AI。
但它们有个共同特点,需要大量的人工特征工程。工程师要手工提取"有用的特征",然后喂给模型。
第三次浪潮(2012-至今):深度学习AI
2012年,一个叫AlexNet的深度神经网络在ImageNet图像识别竞赛中碾压了所有传统方法。一切都变了。
深度学习的革命性突破在于,不再需要人工设计特征,让神经网络自己学习特征。
典型代表包括卷积神经网络用于图像识别和物体检测、循环神经网络用于语音识别和机器翻译、Transformer用于语言理解和文本生成,这也是大模型的基础。
深度学习AI的能力边界迅速扩展,AlphaGo击败围棋世界冠军、自动驾驶汽车上路、语音助手走进千家万户、人脸识别精度超过人类。
这些,仍然是AI。
从这段历史可以看出,AI不是某种特定技术,而是一个目标,让机器表现出智能。实现这个目标的手段,一直在演进:
大语言模型,只是当前这个阶段实现AI的一种方式。
它很强大,但它不是AI的全部,甚至未来可能会被更先进的技术取代。
Tip
理解这一点很重要,现在已经有不少领域专家在讨论Transformer的缺陷,甚至批评人类沉醉于Transformer架构"不思进取"。Transformer很厉害,但人类不可能永远停留在当前架构下。
理解了AI是一个广阔的领域后,让我们看看大模型在其中的位置。
人工智能(AI)
│
├── 符号主义AI:专家系统、逻辑推理
│
├── 机器学习
│ ├── 传统机器学习:决策树、SVM、贝叶斯
│ │
│ └── 深度学习
│ ├── 计算机视觉:CNN、ViT、YOLO
│ ├── 语音识别:WaveNet、Whisper
│ └── 自然语言处理
│ ├── 传统NLP(LSTM、GRU)
│ └── 大语言模型(LLM)★
│ ├── GPT系列
│ ├── LLaMA
│ └── DeepSeek
大语言模型只是深度学习的一个分支,而深度学习又只是AI的一个分支。
什么样的模型才能叫"大模型",有三个核心特征:
相比之下,2018年的BERT模型"只有"3.4亿参数,在当时已经算大了。GPT-3比BERT大了500倍。BERT(Bidirectional Encoder Representations from Transformers)是Google在2018年发布的预训练语言模型,通过双向理解上下文来学习词语含义,在当时引发了NLP领域的革命。
大模型不是为某个特定任务训练的,而是在海量文本上做通用预训练:
这种"涌现能力"(Emergent Abilities)是大模型的标志性特点。当模型规模达到某个临界点,就会突然展现出训练时没有明确教它的能力。
几乎所有当前的大语言模型,都基于Transformer架构:
Transformer的自注意力机制,让模型能处理超长上下文,理解词与词之间的复杂关系。这也是为什么从美国的GPT,到中国的DeepSeek,几乎所有大模型都选择了这个架构,它已被证明是当前实现大规模语言理解的最优解。
理解了大模型的定位,就能看清一个事实:很多AI技术,跟大模型没什么关系。
计算机视觉领域的图像分类(ResNet、EfficientNet)、物体检测(YOLO、Faster R-CNN)大多基于CNN,跟大语言模型的Transformer架构不同,应用场景也不同。
语音识别领域的Whisper(OpenAI的语音识别模型)、WaveNet(Google的语音合成),虽然Whisper也用了Transformer,但它处理的是音频,不是文本。
推荐系统领域的协同过滤(Amazon早期的推荐算法)、深度学习推荐模型(Wide&Deep、DeepFM)、图神经网络推荐(GNN-based),这些系统关注的是"预测用户偏好",而不是"理解和生成语言"。
强化学习领域的AlphaGo(围棋)、OpenAI Five(Dota2游戏AI)、机器人控制,这些AI通过"试错"学习策略,跟大模型的"预测下一个词"完全不同。
我们现在所做的AI开发,是不是主要是大模型相关应用的开发?
在很大程度上,确实如此。
打开招聘网站,搜索"AI开发工程师",职位要求高度集中在:
必备技能:
- 熟悉GPT、Claude等大语言模型API
- 掌握Prompt Engineering(提示词工程)
- 了解RAG(检索增强生成)
- 会用LangChain、LlamaIndex等框架
- 理解Function Calling、Agent机制
加分项:
- 有微调(Fine-tuning)经验
- 了解向量数据库(Pinecone、Chroma)
- 会部署开源大模型(LLaMA、Qwen)
几乎所有技能都围绕大语言模型。
再看看近两年的AI应用创业公司,产品类型也高度集中:
核心都是调用大模型API,包装成垂直场景的应用。
为什么会形成这种局面,因为大模型的出现,让AI应用开发的门槛几乎消失了。
以前要做一个AI应用,需要选择算法、设计网络、准备数据、训练模型、优化参数,需要深厚的机器学习功底和大量算力。
现在,只需要:
from openai import OpenAI
client = OpenAI(api_key="密钥")
response = client.chat.completions.create(
model="qwen3-max",
messages=[
{"role": "user", "content": "帮我总结这篇文章"}
]
)
这让AI开发"平民化"了。它再也不是只有少数数学功底好的精英才能驾驭的技术。
虽然当前大模型应用开发很火,但把AI等同于大模型,会带来认知误区。
大模型擅长自然语言理解和生成、文本内容创作、代码生成和解释、逻辑推理(通过Chain-of-Thought)、知识问答。
大模型不擅长实时决策(自动驾驶需要毫秒级响应)、精确计算(数学公式求解容易出错)、图像生成(需要专门的扩散模型如Stable Diffusion)、物理世界交互(机器人控制需要强化学习)。
其他AI技术也有其独特价值。计算机视觉用于医学影像诊断和工业质检,语音识别用于实时字幕和语音转文字,推荐系统用于电商和短视频推荐,强化学习用于游戏AI、机器人控制和资源调度优化。
这些任务,大模型做不了,或者做得不如专门的AI模型。
理论讲完了,回到实战:作为开发者,怎么选择用大模型还是其他AI技术?
可以参照以下决策思路:
大模型对于自然语言的理解与文本的生成是其强大的能力,如果确实需要对接处理自然语言,大模型必然是首选。
给出一些场景选型案例:
智能客服选择大模型
用户问法千变万化,无法穷举规则,需要理解自然语言的语义,希望回复自然、多样,而不是模板化。
电商商品推荐选择推荐系统
基于用户行为数据,而非语言理解。调用频率极高(每个用户每次刷新都要推荐),成本敏感,大模型API成本太高。
法律合同审查选择大模型+专业模型混合
需要理解合同条款(自然语言)用大模型,但法律领域专业性强,需要微调或专业模型。示例代码如下:
示例:
# 第一步:用大模型提取关键信息
extracted_info = gpt_extract_clauses(contract_text)
# 第二步:用专业的法律NLP模型分析风险
risk_analysis = legal_model.analyze(extracted_info)
# 第三步:用大模型生成审查报告
report = gpt_generate_report(risk_analysis)
混合使用,发挥各自优势。
把视野放远一点,思考一个问题:
大模型会是AI的终极形态吗?
答案是,不会。它很可能只是一个过渡阶段。
如果把AI的发展看作几个阶段:
大模型很可能是第四到第五阶段的过渡。
"大模型时代,是AI从'狭隘专家'走向'通用智能'的关键一步,但它还不是终点。"
很多同学会好奇:抖音的推荐为什么这么准,为什么总能刷到喜欢的内容?
恰巧字节跳动在2025年3月首次公开了推荐算法原理。虽然这和本书的主题不相关,但这是一个非大模型AI技术的绝佳案例,展示了AI领域的多样性。
抖音推荐系统采用四层技术架构。第一层是双塔召回模型,想象红娘介绍相亲,不会让所有人见面,而是先筛选出"可能合适"的候选者。双塔召回模型从数百万视频中,通过计算用户兴趣编码和视频内容编码的相似度,快速筛选出几百个候选。
第二层是Wide&Deep模型,Wide部分记住明确偏好(点赞过10个美食视频就推荐美食),Deep部分发现潜在兴趣(喜欢美食的人70%也喜欢旅游),既能"投其所好",又能"拓宽视野"。
第三层是多目标建模,早期推荐系统只看完播率,现在综合评估完播率、点赞概率、评论概率、分享概率、关注概率等多个指标。
第四层是底层引擎Monolith,这是字节自研的推荐系统框架,支持实时训练(用户刚点赞一个视频,几分钟后推荐就会调整)、处理万亿级别特征、毫秒级完成推荐计算。
秘密在于精准的正反馈循环:用户刷到喜欢的视频多看了几秒,AI立即捕捉偏好,下一个视频更精准推荐,循环加速,越刷越准。
这和大模型完全是两个世界的AI技术。
理解了"AI不等于大模型"之后,下一个问题来了:
当我们真正要开发AI应用时,该从哪里入手?
可能已经有了一个运行良好的传统业务系统,电商平台、企业管理系统、在线教育平台……现在想接入AI能力,该怎么做?
又或者,想从零开始开发一个AI原生应用,智能客服、AI写作助手、代码生成工具……架构该如何设计?
下一节《AI应用开发的正确姿势》将为你揭晓。
| 中文 | English | 音标 | 说明 |
|---|---|---|---|
| 人工智能 | Artificial Intelligence | /ˌɑːrtɪˈfɪʃl ɪnˈtelɪdʒəns/ | 让机器展现智能行为的技术领域,不等于大模型 |
| 机器学习 | Machine Learning | /məˈʃiːn ˈlɜːrnɪŋ/ | 让机器从数据中自动学习规律,而非手工编写规则 |
| 大语言模型 | Large Language Model (LLM) | /lɑːrdʒ ˈlæŋɡwɪdʒ ˈmɑːdl/ | 基于Transformer的大规模预训练语言模型,AI的一个分支 |
| 涌现能力 | Emergent Abilities | /iˈmɜːrdʒənt əˈbɪlətiz/ | 模型规模达到临界点后突然展现出未明确训练过的能力 |
| 深度学习 | Deep Learning | /diːp ˈlɜːrnɪŋ/ | 用多层神经网络自动学习特征表示的AI方法 |